<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>词汇识别 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/identifying-words.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/identifying-words.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/identifying-words.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/identifying-words.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="languages.html">处理人类语言</a></span>
»
<span class="breadcrumb-node">词汇识别</span>
</div>
<div class="navheader">
<span class="prev">
<a href="mixed-lang-fields.html">« 混合语言域</a>
</span>
<span class="next">
<a href="standard-analyzer.html">标准分析器 »</a>
</span>
</div>
<div class="chapter">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="identifying-words"></a>词汇识别<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/210_Identifying_words/00_Intro.asciidoc">edit</a>
</h2>
</div></div></div>
<p>英语单词相对而言比较容易辨认：单词之间都是以空格或者（一些）标点隔开。
然而即使在英语词汇中也会有一些争议： <em>you’re</em> 是一个单词还是两个？ <em>o’clock</em> ， <em>cooperate</em> ， <em>half-baked</em> ，或者 <em>eyewitness</em> 这些呢？</p>
<p>德语或者荷兰语把独立的单词合并起来创造一个长的合成词如 <em>Weißkopfseeadler</em> (white-headed sea eagle) ,
但是为了在查询 <code class="literal">Adler</code> (eagle)的时候返回查询 <code class="literal">Weißkopfseeadler</code> 的结果，我们需要懂得怎么将合并词拆成词组。</p>
<p>亚洲的语言更复杂：很多语言在单词，句子，甚至段落之间没有空格。
有些词可以用一个字来表达，但是同样的字在另一个字旁边的时候就是不同意思的长词的一部分。</p>
<p>显而易见的是没有能够奇迹般处理所有人类语言的万能分析器，Elasticsearch 为很多语言提供了专用的分析器，
其他特殊语言的分析器以插件的形式提供。</p>
<p>然而并不是所有语言都有专用分析器，而且有时候你甚至无法确定处理的是什么语言。这种情况，我们需要一些忽略语言也能合理工作的标准工具包。</p>





</div>
<div class="navfooter">
<span class="prev">
<a href="mixed-lang-fields.html">« 混合语言域</a>
</span>
<span class="next">
<a href="standard-analyzer.html">标准分析器 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>